在加强学习中的技能或低级政策是时间扩展的动作,可以加快学习并实现复杂的行为。离线强化学习和模仿学习的最新工作已经从一系列专家轨迹中提出了几种技能发现的技术。尽管这些方法很有希望,但发现的技能数量始终是固定的超参数,它需要有关环境的先验知识或其他参数搜索来调整它。我们首先提出了一种脱机学习选择(特定技能框架)的方法,以利用变异推理和持续放松方面的进步。然后,我们重点介绍了贝叶斯非参数和离线技能发现之间未开发的连接,并展示如何获得模型的非参数版本。由于经过精心构造的后端具有动态变化数量的选项,因此可以删除该版本,从而消除了指定K。我们还展示了我们的非参数扩展如何在其他技能框架中应用,并在经验上证明我们的方法可以拨款,我们还显示了我们的非参数扩展如何,我们还显示了如何应用我们的非参数扩展名,并显示了我们的非参数扩展如何,因此该版本是可进行的。在各种环境中的最先进的离线技能学习算法。我们的代码可在https://github.com/layer6ai-labs/bnpo上找到。
translated by 谷歌翻译